Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,
|
|
- Anatol Dobrowolski
- 9 lat temu
- Przeglądów:
Transkrypt
1 Klasyfikator Jedną z najistotniejszych nieparametrycznych metod klasyfikacji jest metoda K-najbliższych sąsiadów, oznaczana przez K-NN. W metodzie tej zaliczamy rozpoznawany obiekt do tej klasy, do której należy większość z jego K najbliższych sąsiadów. Estymator prawdopodobieństwa a posteriori przynależności obserwacji x do klasy k jest wyliczany jako udział obserwacji z tej klasy wśród jej K najbliższych sąsiadów, czyli ˆp(k x) = 1 K n I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L, i=1 gdziex (K) jestk-tymcodoodległościodxpunktemzpróby uczącej, natomiast ρ jest pewną odległością(lub ogólniej miarą niepodobieństwa obiektów).
2 Klasyfikator Klasyfikator metody K-najbliższych sąsiadów ma zatem postać ˆd KNN (x) =argmaxˆp(k x). k
3 Klasyfikator Metoda ta ma bardzo wysoką efektywność, gdy liczba obserwacji rośnie nieskończenie. Jednakże w wielu sytuacjach praktycznych liczba dostępnych obserwacji jest niewielka, co często prowadzi do drastycznego spadku efektywności metody najbliższych sąsiadów. nie wymaga estymacji warunkowych funkcji gęstości, jest więc zdecydowanie prostsza w implementacji.
4 Miary niepodobieństwa Szczególnie ważne w przypadku tej metody jest przyjęcie właściwej odległości, a w zasadzie miary niepodobieństwa obiektów. Definicja Funkcję ρ : X X Rnazywamymiarąniepodobieństwajeśli: 1. ρ(x,y) 0, 2. ρ(x,y) =0wtedyitykowtedy,gdyx =y, 3. ρ(y,x) = ρ(x,y).
5 Miary niepodobieństwa Określona w ten sposób miara jest semi-metryką na przestrzeni próby.jakwidaćniemusionabyć(choćczęstojest)metryką,tzn. niemusispełniaćwarunkutrójkąta: ρ(x,y) ρ(x,z)+ρ(z,y). Nierówność trójkąta nie jest nam potrzebna do określenia kolejności odległości punktów od x, ponieważ nie interesują nas odległości pomiędzy pozostałymi punktami. Wybór miary niepodobieństwa obiektów jest arbitralny i zależy głównie od charakteru danych.
6 Miary niepodobieństwa Dla danych ilościowych, jako miarę niepodobieństwa pomiędzy obiektami używa się często zwykłą odległość(metrykę) euklidesową ( p ) 1/2 ρ 1 (x,y) = ((x y) (x y)) 1/2 = (x i y i ) 2 lub jej kwadrat i=1 ρ 2 (x,y) = (x y) (x y) = p (x i y i ) 2. i=1 Zwróćmy uwagę, że druga miara nie jest metryką, ponieważ nie jest dla niej spełniony warunek trójkąta.
7 Miary niepodobieństwa Jeżeli cechy opisujące obiekty wyrażone są w różnych jednostkach, to w celu zniwelowania ich wpływu możemy zastosować ważoną odległość euklidesową ρ 3 (x,y) = ((x y) W 1 (x y)) 1/2 = ( p i=1 1 w 2 i (x i y i ) 2 ) 1/2, gdziew =diag{w 2 1,...,w2 p },awagiw isąodchyleniami standardowymi poszczególnych cech. Aby miara uwzględniała również korelacje pomiędzy cechami stosujemy jako miarę niepodobieństwa odległość Mahalanobisa ρ 4 (x,y) = ((x y) S 1 (x y)) 1/2, gdzie S jest estymatorem macierzy kowariancji.
8 Miary niepodobieństwa Rzadziej stosuje się również inne miary niepodobieństwa: Odległość miejska(taksówkowa, manhatańska) ρ 5 (x,y) = p x i y i. i=1 Odległość ta, tak samo jak odległość euklidesowa, jest szczególnym przypadkiemodległościminkowskiegowprzestrzeni R p danej wzorem: ( p ) 1/q ρ(x,y) = x i y i q. i=1
9 Miary niepodobieństwa (y 1,y 2 ) (x 1,x 2 ) ρ 1 (x,y) = (x 1 y 1 ) 2 +(x 2 y 2 ) 2 ρ 2 (x,y) = (x 1 y 1 ) 2 +(x 2 y 2 ) 2 ρ 5 (x,y) = (x 1 y 1 ) + (x 2 y 2 )
10 Miary niepodobieństwa Odległość Czebyszewa Odległość Frechéta ρ 6 (x,y) =max 1 i p x i y i, ρ 7 (x,y) = p x i y i 1 1+ x i y i 2 i, i=1 Odległość Canberry ρ 8 (x,y) = p i=1 x i y i x i +y i,
11 Miary niepodobieństwa Odległość poczty ρ 9 (x,y) = { ρ 2 (x,0)+ρ 2 (0,y), dlax y, 0, dlax =y, Odległość metra 0, dlax =y, ρ 2 (x,y), ρ 10 (x,y) = dlax yorazx,yleżących przez punkt 0, ρ 2 (x,0)+ρ 2 (0,y), pozatym, na jednej prostej przechodzącej
12 Miary niepodobieństwa (y 1,y 2 ) (x 1,x 2 ) ρ 9 (x,y) =x 2 1 +x2 2 +y2 1 +y2 2
13 Miary niepodobieństwa (y 1,y 2 ) (z 1,z 2 ) (x 1,x 2 ) ρ 10 (x,y) =x 2 1 +x2 2 +y2 1 +y2 2 ρ 10 (x,z) = (x 1 z 1 ) 2 +(x 2 z 2 ) 2
14 Miary niepodobieństwa W przypadku danych jakościowych, możemy w naturalny sposób zdefiniować miarę niepodobieństwa obiektów jako ρ 11 (x,y) = 1 p p I(x i y i ). i=1 Miara ta nazywana jest współczynnikiem Sneatha.
15 Miary niepodobieństwa Na szczególną uwagę zasługuje sytuacja danych binarnych, tzn. takich gdzie każda cecha może przyjmować tylko dwie wartości(0 albo 1). Miara Sneatha przyjmuje wtedy postać ρ 12 (x,y) = b +c p =1 a+d p, gdzie a i d oznaczają liczbę cech zgodnych(1-1, 0-0 odpowiednio), b i c niezgodnych(1-0, 0-1 odpowiednio). Miara ta nosi nazwę współczynnika dopasowania obiektów. Do innych, szczególnie często wykorzystywanych w tej sytuacji, miarniepodobieństwaobiektównależą,statystyka χ 2 ρ 13 (x,y) = oraz współczynnik Jaccarda p(ad bc) 2 (a+b)(c +d)(a+c)(b +d) ρ 14 (x,y) = b +c a+b +c.
16 Własności graniczne Okazuje się, że metoda najbliższych sąsiadów ma bardzo ciekawe własnościasymptotyczne.niech ε n oznaczabezwarunkoweśrednie prawdopodobieństwo błędu metody najbliższych sąsiadów na n-elementowymzbiorzeiε oznaczabłądbayesowski.dlametody 1-NN zachodzi następująca nierówność: ( ε ε ε 2 L ) L 1 ε, jeśli ε = lim n ε n.
17 Własności graniczne Górne ograniczenie jest osiągane dla tzw. nieinformującego przypadku, gdzie gęstości we wszystkich klasach są takie same oraz prawdopodobieństwa a priori również są takie same. Kiedy błąd bayesowski jest mały, górne ograniczenie jest w przybliżeniu równe podwojonemu błędowi bayesowskiemu.
18 Własności graniczne Ponieważ εjestzawszemniejszybądźrówny2ε,przynajmniej połowa informacji klasyfikacyjnej jest zawarta w najbliższym sąsiedzie. Co za tym idzie, żadna reguła klasyfikacyjna, oparta na nieskończonej próbie uczącej, typu najbliższy sąsiad nie poprawi błędu klasyfikacji o więcej niż połowę. Co ważne, zależność powyższa jest prawdziwa bez względu na przyjętą miarę niepodobieństwa.
19 Własności graniczne Metoda K-NN jest optymalna w sensie błędu bayesowskiego, gdyż jeślin,k orazk/n 0toprawdopodobieństwobłędu metody K-NN dąży do błędu bayesowskiego.
20 Wybór reprezentatywnego podzbioru obserwacji Wadą metody najbliższego sąsiada jest duży nakład obliczeniowy niezbędny do klasyfikacji każdego obiektu. Jest to związane ze znaczną liczbą obliczeń niezbędną do wyznaczenia odległości między obiektami. W literaturze można znaleźć pewne techniki dokonujące redukcji danych, które likwidują te niedogodności. Należą do nich algorytmy edycyjne oraz algorytmy kondensujące informację. Celem tych pierwszych jest wybór niedużych i jednorodnych skupień obserwacji. Celem natomiast drugiego typu algorytmów jest wybranie jak najmniejszej liczby obserwacji, które dobrze reprezentują klasy(położone są one możliwie blisko brzegów).
21 Wybór reprezentatywnego podzbioru obserwacji W wyniku tych procedur otrzymuje się pewien podzbiór V zbioru uczącego Z. Do najczęściej wykorzystywanych technik tego rodzaju należy: metoda Harta oraz metoda Wilsona. Pierwsza należy do technik kondensacji, a druga do technik edycyjnych.
22 Wybór reprezentatywnego podzbioru obserwacji W przypadku metody Harta zaczynamy od zbioru V zawierającego jednąobserwacjęz 1,którajestuznawanazauczącą.DozbioruV przesuwamy, po kolei, obserwacje, które są błędnie klasyfikowane przez metodę 1-NN uczoną na aktualnym zbiorze V. Procedurę powtarzamytakdługo,ażwszystkieobserwacjezezbioruz\vsą klasyfikowane poprawnie. Technika ta ma tendencję do zachowywania obserwacji leżących w pobliżu granic decyzyjnych oraz usuwania obserwacji leżących głębiej.
23 Wybór reprezentatywnego podzbioru obserwacji W przypadku metody Wilsona wykonywana jest metoda K-NN (proponowanek =3)nazbiorzeZiusuwanesąwszystkie elementy, które zostały błędnie zaklasyfikowane. Pozostałe elementy tworzą zbiór V, na którym powinna być używana metoda 1-NN. Zaskakująco dobre wyniki daje metoda losowej edycji. Polega ona na losowym podziale zbioru uczącego z góry ustaloną ilość razy, przy czym rozmiar zbioru V jest również ustalony. Wynikiem jest zbiór, na którym uzyskano najmniejszą ocenę błędu metodą resubstytucji.
Agnieszka Nowak Brzezińska
Agnieszka Nowak Brzezińska jeden z algorytmów regresji nieparametrycznej używanych w statystyce do prognozowania wartości pewnej zmiennej losowej. Może również byd używany do klasyfikacji. - Założenia
Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV
Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną
Agnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
Agnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
Idea. Algorytm zachłanny Algorytmy hierarchiczne Metoda K-średnich Metoda hierarchiczna, a niehierarchiczna. Analiza skupień
Idea jest narzędziem analizy danych służącym do grupowania n obiektów, opisanych za pomocą wektora p-cech, w K niepustych, rozłącznych i możliwie jednorodnych grup skupień. Obiekty należące do danego skupienia
Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18
Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18 Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza)
Prawdopodobieństwo czerwonych = = 0.33
Temat zajęć: Naiwny klasyfikator Bayesa a algorytm KNN Część I: Naiwny klasyfikator Bayesa Naiwny klasyfikator bayerowski jest prostym probabilistycznym klasyfikatorem. Naiwne klasyfikatory bayesowskie
Mail: Pokój 214, II piętro
Wykład 2 Mail: agnieszka.nowak@us.edu.pl Pokój 214, II piętro http://zsi.tech.us.edu.pl/~nowak Predykcja zdolność do wykorzystania wiedzy zgromadzonej w systemie do przewidywania wartości dla nowych danych,
Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne
Wprowadzenie Prostym podejściem do klasyfikacji jest estymacja funkcji regresji r(x) =E(Y X =x)zpominięciemestymacjigęstościf k. Zacznijmyodprzypadkudwóchgrup,tj.gdy Y = {1,0}. Wówczasr(x) =P(Y =1 X =x)ipouzyskaniuestymatora
Hierarchiczna analiza skupień
Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym
Wprowadzenie. Metody bayesowskie Drzewa klasyfikacyjne i lasy losowe Sieci neuronowe SVM. Klasyfikacja. Wstęp
Wstęp Problem uczenia się pod nadzorem, inaczej nazywany uczeniem się z nauczycielem lub uczeniem się na przykładach, sprowadza się do określenia przydziału obiektów opisanych za pomocą wartości wielu
Wprowadzenie. Data Science Uczenie się pod nadzorem
Wprowadzenie Wprowadzenie Wprowadzenie Wprowadzenie Machine Learning Mind Map Historia Wstęp lub uczenie się z przykładów jest procesem budowy, na bazie dostępnych danych wejściowych X i oraz wyjściowych
Klasyfikator liniowy Wstęp Klasyfikator liniowy jest najprostszym możliwym klasyfikatorem. Zakłada on liniową separację liniowy podział dwóch klas między sobą. Przedstawia to poniższy rysunek: 5 4 3 2
Klasyfikacja LDA + walidacja
Klasyfikacja LDA + walidacja Dr hab. Izabela Rejer Wydział Informatyki Zachodniopomorski Uniwersytet Technologiczny w Szczecinie Plan wykładu 1. Klasyfikator 2. LDA 3. Klasyfikacja wieloklasowa 4. Walidacja
Elementy modelowania matematycznego
Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski
Regresyjne metody łączenia klasyfikatorów
Regresyjne metody łączenia klasyfikatorów Tomasz Górecki, Mirosław Krzyśko Wydział Matematyki i Informatyki Uniwersytet im. Adama Mickiewicza XXXV Konferencja Statystyka Matematyczna Wisła 7-11.12.2009
Algorytmy decyzyjne będące alternatywą dla sieci neuronowych
Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Piotr Dalka Przykładowe algorytmy decyzyjne Sztuczne sieci neuronowe Algorytm k najbliższych sąsiadów Kaskada klasyfikatorów AdaBoost Naiwny
WYKŁAD 13 ANALIZA I ROZPOZNANIE OBRAZU. Konstrukcja wektora cech z użyciem współczynników kształtu
WYKŁAD 13 ANALIZA I ROZPOZNANIE OBRAZU Współczynniki kształtu W1,...,W9 stanowią skalarną miarę kształtu analizowanego obiektu. Konstrukcja wektora cech z użyciem współczynników kształtu Wektor cech: x
2. Empiryczna wersja klasyfikatora bayesowskiego
Algorytmy rozpoznawania obrazów 2. Empiryczna wersja klasyfikatora bayesowskiego dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Brak pełnej informacji probabilistycznej Klasyfikator bayesowski
Sztuczna inteligencja : Algorytm KNN
Instytut Informatyki Uniwersytetu Śląskiego 23 kwietnia 2012 1 Algorytm 1 NN 2 Algorytm knn 3 Zadania Klasyfikacja obiektów w oparciu o najbliższe obiekty: Algorytm 1-NN - najbliższego sąsiada. Parametr
Metody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 2 κ-nn i Naive Bayes autorzy: M. Zięba, J.M. Tomczak, A. Gonczarek, S. Zaręba Cel zadania Celem zadania jest implementacja klasyfikatorów
Rozpoznawanie obrazów
Rozpoznawanie obrazów Laboratorium Python Zadanie nr 2 κ-nn i Naive Bayes autorzy: M. Zięba, J.M. Tomczak, A. Gonczarek, S. Zaręba, J. Kaczmar Cel zadania Celem zadania jest implementacja klasyfikatorów
Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory
Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Dr Anna ADRIAN Paw B5, pok 407 adrian@tempus.metal.agh.edu.pl
Analiza skupień. Idea
Idea Analiza skupień Analiza skupień jest narzędziem analizy danych służącym do grupowania n obiektów, opisanych za pomocą wektora p-cech, w K niepustych, rozłącznych i możliwie jednorodnych grup skupień.
Regresja liniowa, klasyfikacja metodą k-nn. Agnieszka Nowak Brzezińska
Regresja liniowa, klasyfikacja metodą k-nn Agnieszka Nowak Brzezińska Analiza regresji Analiza regresji jest bardzo popularną i chętnie stosowaną techniką statystyczną pozwalającą opisywać związki zachodzące
Drzewa klasyfikacyjne Lasy losowe. Wprowadzenie
Wprowadzenie Konstrukcja binarnych drzew klasyfikacyjnych polega na sekwencyjnym dzieleniu podzbiorów przestrzeni próby X na dwa rozłączne i dopełniające się podzbiory, rozpoczynając od całego zbioru X.
Sterowanie procesem i jego zdolność. Zbigniew Wiśniewski
Sterowanie procesem i jego zdolność Zbigniew Wiśniewski Wybór cech do kart kontrolnych Zaleca się aby w pierwszej kolejności były brane pod uwagę cechy dotyczące funkcjonowania wyrobu lub świadczenia usługi
Metody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium JAVA Zadanie nr 2 Rozpoznawanie liter autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z problemem klasyfikacji
Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu
Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu
Klasyfikacja w oparciu o metrykę budowaną poprzez dystrybuanty empiryczne na przestrzeni wzorców uczących
Klasyfikacja w oparciu o metrykę budowaną poprzez dystrybuanty empiryczne na przestrzeni wzorców uczących Cezary Dendek Wydział Matematyki i Nauk Informacyjnych PW Plan prezentacji Plan prezentacji Wprowadzenie
Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1
Weryfikacja hipotez statystycznych KG (CC) Statystyka 26 V 2009 1 / 1 Sformułowanie problemu Weryfikacja hipotez statystycznych jest drugą (po estymacji) metodą uogólniania wyników uzyskanych w próbie
Rozkłady dwóch zmiennych losowych
Rozkłady dwóch zmiennych losowych Uogólnienie pojęć na rozkład dwóch zmiennych Dystrybuanta i gęstość prawdopodobieństwa Rozkład brzegowy Prawdopodobieństwo warunkowe Wartości średnie i odchylenia standardowe
Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ
Współczynnik korelacji Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ Własności współczynnika korelacji 1. Współczynnik korelacji jest liczbą niemianowaną 2. ϱ 1,
ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA
ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA Jan Mielniczuk Wisła, grudzień 2009 PLAN Błędy predykcji i ich podstawowe estymatory Estymacja błędu predykcji w modelu liniowym. Funkcje kryterialne Własności
5 Błąd średniokwadratowy i obciążenie
5 Błąd średniokwadratowy i obciążenie Przeprowadziliśmy 200 powtórzeń przebiegu próbnika dla tego samego zestawu parametrów modelowych co w Rozdziale 1, to znaczy µ = 0, s = 10, v = 10, n i = 10 (i = 1,...,
STATYSTYKA
Wykład 1 20.02.2008r. 1. ROZKŁADY PRAWDOPODOBIEŃSTWA 1.1 Rozkład dwumianowy Rozkład dwumianowy, 0 1 Uwaga: 1, rozkład zero jedynkowy. 1 ; 1,2,, Fakt: Niech,, będą niezależnymi zmiennymi losowymi o jednakowym
Grupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633
Grupowanie Grupowanie 7 6 5 4 y 3 2 1 0-3 -2-1 0 1 2 3 4 5-1 -2-3 -4 x Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633 Wprowadzenie Celem procesu grupowania jest podział zbioru
Klasyfikacja metodą Bayesa
Klasyfikacja metodą Bayesa Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski warunkowe i bezwarunkowe 1. Klasyfikacja Bayesowska jest klasyfikacją statystyczną. Pozwala przewidzieć prawdopodobieństwo
KLASYFIKACJA. Słownik języka polskiego
KLASYFIKACJA KLASYFIKACJA Słownik języka polskiego Klasyfikacja systematyczny podział przedmiotów lub zjawisk na klasy, działy, poddziały, wykonywany według określonej zasady Klasyfikacja polega na przyporządkowaniu
STATYSTYKA MATEMATYCZNA WYKŁAD stycznia 2010
STATYSTYKA MATEMATYCZNA WYKŁAD 14 18 stycznia 2010 Model statystyczny ROZKŁAD DWUMIANOWY ( ) {0, 1,, n}, {P θ, θ (0, 1)}, n ustalone P θ {K = k} = ( ) n θ k (1 θ) n k, k k = 0, 1,, n Geneza: Rozkład Bernoulliego
Pattern Classification
Pattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John Wiley & Sons, 2000 with the permission of the authors
ALGORYTMY SZTUCZNEJ INTELIGENCJI
ALGORYTMY SZTUCZNEJ INTELIGENCJI Sieci neuronowe 06.12.2014 Krzysztof Salamon 1 Wstęp Sprawozdanie to dotyczy ćwiczeń z zakresu sieci neuronowych realizowanym na przedmiocie: Algorytmy Sztucznej Inteligencji.
Zagadnienie klasyfikacji (dyskryminacji)
Zagadnienie klasyfikacji (dyskryminacji) Przykład Bank chce klasyfikować klientów starających się o pożyczkę do jednej z dwóch grup: niskiego ryzyka (spłacających pożyczki terminowo) lub wysokiego ryzyka
Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki
Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki Spis treści I. Wzory ogólne... 2 1. Średnia arytmetyczna:... 2 2. Rozstęp:... 2 3. Kwantyle:... 2 4. Wariancja:... 2 5. Odchylenie standardowe:...
Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.
Testowanie hipotez Niech X = (X 1... X n ) będzie próbą losową na przestrzeni X zaś P = {P θ θ Θ} rodziną rozkładów prawdopodobieństwa określonych na przestrzeni próby X. Definicja 1. Hipotezą zerową Θ
Metody iteracyjne rozwiązywania układów równań liniowych (5.3) Normy wektorów i macierzy (5.3.1) Niech. x i. i =1
Normy wektorów i macierzy (5.3.1) Niech 1 X =[x x Y y =[y1 x n], oznaczają wektory przestrzeni R n, a yn] niech oznacza liczbę rzeczywistą. Wyrażenie x i p 5.3.1.a X p = p n i =1 nosi nazwę p-tej normy
Spis treści 3 SPIS TREŚCI
Spis treści 3 SPIS TREŚCI PRZEDMOWA... 1. WNIOSKOWANIE STATYSTYCZNE JAKO DYSCYPLINA MATEMATYCZNA... Metody statystyczne w analizie i prognozowaniu zjawisk ekonomicznych... Badania statystyczne podstawowe
METODY INŻYNIERII WIEDZY
METODY INŻYNIERII WIEDZY WALIDACJA KRZYŻOWA dla ZAAWANSOWANEGO KLASYFIKATORA KNN ĆWICZENIA Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej
Naiwny klasyfikator Bayesa brał pod uwagę jedynie najbliższe otoczenie. Lecz czym jest otoczenie? Jak je zdefiniować?
Algorytm k-nn Naiwny klasyfikator Bayesa brał pod uwagę jedynie najbliższe otoczenie. Lecz czym jest otoczenie? Jak je zdefiniować? Jak daleko są położone obiekty od siebie? knn k nearest neighbours jest
Rozpoznawanie wzorców. Dr inż. Michał Bereta p. 144 / 10, Instytut Informatyki
Rozpoznawanie wzorców Dr inż. Michał Bereta p. 144 / 10, Instytut Informatyki mbereta@pk.edu.pl beretam@torus.uck.pk.edu.pl www.michalbereta.pl Twierzdzenie: Prawdopodobieostwo, że n obserwacji wybranych
Wybór modelu i ocena jakości klasyfikatora
Wybór modelu i ocena jakości klasyfikatora Błąd uczenia i błąd testowania Obciążenie, wariancja i złożoność modelu (klasyfikatora) Dekompozycja błędu testowania Optymizm Estymacja błędu testowania AIC,
Techniki uczenia maszynowego nazwa przedmiotu SYLABUS
Techniki uczenia maszynowego nazwa SYLABUS Obowiązuje od cyklu kształcenia: 2014/20 Część A. Informacje ogólne Elementy składowe sylabusu Nazwa jednostki prowadzącej studiów Poziom kształcenia Profil studiów
Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl
Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący
Analiza współzależności dwóch cech I
Analiza współzależności dwóch cech I Współzależność dwóch cech W tym rozdziale pokażemy metody stosowane dla potrzeb wykrywania zależności lub współzależności między dwiema cechami. W celu wykrycia tych
Rozdział 1. Wektory losowe. 1.1 Wektor losowy i jego rozkład
Rozdział 1 Wektory losowe 1.1 Wektor losowy i jego rozkład Definicja 1 Wektor X = (X 1,..., X n ), którego każda współrzędna jest zmienną losową, nazywamy n-wymiarowym wektorem losowym (krótko wektorem
Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )
Statystyka Rozkład prawdopodobieństwa Testowanie hipotez Wykład III (04.01.2016) Rozkład t-studenta Rozkład T jest rozkładem pomocniczym we wnioskowaniu statystycznym; stosuje się go wyznaczenia przedziału
METODY STATYSTYCZNE W BIOLOGII
METODY STATYSTYCZNE W BIOLOGII 1. Wykład wstępny 2. Populacje i próby danych 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów biologicznych 5. Najczęściej wykorzystywane testy statystyczne
Ważne rozkłady i twierdzenia c.d.
Ważne rozkłady i twierdzenia c.d. Funkcja charakterystyczna rozkładu Wielowymiarowy rozkład normalny Elipsa kowariacji Sploty rozkładów Rozkłady jednostajne Sploty z rozkładem normalnym Pobieranie próby
Zależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna),
Zależność przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna), funkcyjna stochastyczna Korelacja brak korelacji korelacja krzywoliniowa korelacja dodatnia korelacja ujemna Szereg korelacyjny numer
Symulacyjne metody wyceny opcji amerykańskich
Metody wyceny Piotr Małecki promotor: dr hab. Rafał Weron Instytut Matematyki i Informatyki Politechniki Wrocławskiej Wrocław, 0 lipca 009 Metody wyceny Drzewko S 0 S t S t S 3 t S t St St 3 S t St St
Metody statystyczne wykorzystywane do oceny zróżnicowania kolekcji genowych roślin. Henryk Bujak
Metody statystyczne wykorzystywane do oceny zróżnicowania kolekcji genowych roślin Henryk Bujak e-mail: h.bujak@ihar.edu.pl Ocena różnorodności fenotypowej Różnorodność fenotypowa kolekcji roślinnych zasobów
Regresja i Korelacja
Regresja i Korelacja Regresja i Korelacja W przyrodzie często obserwujemy związek między kilkoma cechami, np.: drzewa grubsze są z reguły wyższe, drewno iglaste o węższych słojach ma większą gęstość, impregnowane
PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH
Wykład 3 Liniowe metody klasyfikacji. Wprowadzenie do klasyfikacji pod nadzorem. Fisherowska dyskryminacja liniowa. Wprowadzenie do klasyfikacji pod nadzorem. Klasyfikacja pod nadzorem Klasyfikacja jest
IX. Rachunek różniczkowy funkcji wielu zmiennych. 1. Funkcja dwóch i trzech zmiennych - pojęcia podstawowe. - funkcja dwóch zmiennych,
IX. Rachunek różniczkowy funkcji wielu zmiennych. 1. Funkcja dwóch i trzech zmiennych - pojęcia podstawowe. Definicja 1.1. Niech D będzie podzbiorem przestrzeni R n, n 2. Odwzorowanie f : D R nazywamy
Sztuczna Inteligencja Projekt
Sztuczna Inteligencja Projekt Temat: Algorytm LEM2 Liczba osób realizujących projekt: 2 1. Zaimplementować algorytm LEM 2. 2. Zaimplementować klasyfikator Classif ier. 3. Za pomocą algorytmu LEM 2 wygenerować
Rozpoznawanie obrazów
Rozpoznawanie obrazów Ćwiczenia lista zadań nr 5 autorzy: A. Gonczarek, J.M. Tomczak Przykładowe problemy Klasyfikacja binarna Dla obrazu x zaproponowano dwie cechy φ(x) = (φ 1 (x) φ 2 (x)) T. Na obrazie
Algorytmy klasyfikacji
Algorytmy klasyfikacji Konrad Miziński Instytut Informatyki Politechnika Warszawska 6 maja 2015 1 Wnioskowanie 2 Klasyfikacja Zastosowania 3 Drzewa decyzyjne Budowa Ocena jakości Przycinanie 4 Lasy losowe
POLITECHNIKA OPOLSKA
POLITECHNIKA OPOLSKA WYDZIAŁ MECHANICZNY Katedra Technologii Maszyn i Automatyzacji Produkcji Laboratorium Podstaw Inżynierii Jakości Ćwiczenie nr 4 Temat: Analiza korelacji i regresji dwóch zmiennych
EGZAMIN MATURALNY Z MATEMATYKI
ARKUSZ ZAWIERA INFORMACJE PRAWNIE CHRONIONE DO MOMENTU ROZPOCZĘCIA EGZAMINU! Miejsce na naklejkę MMA-R_P-08 EGZAMIN MATURALNY Z MATEMATYKI POZIOM ROZSZERZONY MAJ ROK 008 Czas pracy 80 minut Instrukcja
Skalowanie wielowymiarowe idea
Skalowanie wielowymiarowe idea Jedną z wad metody PCA jest możliwość używania jedynie zmiennych ilościowych, kolejnym konieczność posiadania pełnych danych z doświadczenia(nie da się użyć PCA jeśli mamy
STATYSTYKA OPISOWA. Dr Alina Gleska. 12 listopada Instytut Matematyki WE PP
STATYSTYKA OPISOWA Dr Alina Gleska Instytut Matematyki WE PP 12 listopada 2017 1 Analiza współzależności dwóch cech 2 Jednostka zbiorowości - para (X,Y ). Przy badaniu korelacji nie ma znaczenia, która
1 Klasyfikator bayesowski
Klasyfikator bayesowski Załóżmy, że dane są prawdopodobieństwa przynależności do klasp( ),P( 2 ),...,P( L ) przykładów z pewnego zadania klasyfikacji, jak również gęstości rozkładów prawdopodobieństw wystąpienia
Analiza współzależności zjawisk
Analiza współzależności zjawisk Informacje ogólne Jednostki tworzące zbiorowość statystyczną charakteryzowane są zazwyczaj za pomocą wielu cech zmiennych, które nierzadko pozostają ze sobą w pewnym związku.
Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa
Weryfikacja hipotez statystycznych Hipotezą statystyczną nazywamy każde przypuszczenie dotyczące nieznanego rozkładu badanej cechy populacji, o prawdziwości lub fałszywości którego wnioskuje się na podstawie
Rozpoznawanie obrazów
Rozpoznawanie obrazów Ćwiczenia lista zadań nr 7 autorzy: A. Gonczarek, J.M. Tomczak Przykładowe problemy Klasyfikacja binarna Dla obrazu x zaproponowano dwie cechy φ(x) = (φ 1 (x) φ 2 (x)) T. Na obrazie
Uzasadnienie tezy. AB + CD = BC + AD 2
LUBELSKA PRÓBA PRZED MATURĄ MARZEC 06 ODPOWIEDZI I PROPOZYCJA OCENIANIA ZAMKNIĘTE ODPOWIEDZI Nr zadania 5 Odpowiedź C D C B B ZADANIE Z KODOWANĄ ODPOWIEDZIĄ Zadanie 6 cyfra dziesiątek jedności OTWARTE
Adrian Horzyk
Metody Inteligencji Obliczeniowej Metoda K Najbliższych Sąsiadów (KNN) Adrian Horzyk horzyk@agh.edu.pl AGH Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej
Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak
Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak 1 Wprowadzenie. Zmienne losowe Podczas kursu interesować nas będzie wnioskowanie o rozpatrywanym zjawisku. Poprzez wnioskowanie rozumiemy
METODY INŻYNIERII WIEDZY
METODY INŻYNIERII WIEDZY Metoda K Najbliższych Sąsiadów K-Nearest Neighbours (KNN) ĆWICZENIA Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej
Metoda największej wiarogodności
Wprowadzenie Założenia Logarytm funkcji wiarogodności Metoda Największej Wiarogodności (MNW) jest bardziej uniwersalną niż MNK metodą szacowania wartości nieznanych parametrów Wprowadzenie Założenia Logarytm
Metody selekcji cech
Metody selekcji cech A po co to Często mamy do dyspozycji dane w postaci zbioru cech lecz nie wiemy które z tych cech będą dla nas istotne. W zbiorze cech mogą wystąpić cechy redundantne niosące identyczną
Modele DSGE. Jerzy Mycielski. Maj Jerzy Mycielski () Modele DSGE Maj / 11
Modele DSGE Jerzy Mycielski Maj 2008 Jerzy Mycielski () Modele DSGE Maj 2008 1 / 11 Modele DSGE DSGE - Dynamiczne, stochastyczne modele równowagi ogólnej (Dynamic Stochastic General Equilibrium Model)
STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA
STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA Zadanie 0.1 Zmienna losowa X ma rozkład określony funkcją prawdopodobieństwa: x k 0 4 p k 1/3 1/6 1/ obliczyć EX, D X. (odp. 4/3;
METODY INŻYNIERII WIEDZY
METODY INŻYNIERII WIEDZY Metoda K Najbliższych Sąsiadów K-Nearest Neighbours (KNN) ĆWICZENIA Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej
SIMR 2016/2017, Analiza 2, wykład 1, Przestrzeń wektorowa
SIMR 06/07, Analiza, wykład, 07-0- Przestrzeń wektorowa Przestrzeń wektorowa (liniowa) - przestrzeń (zbiór) w której określone są działania (funkcje) dodawania elementów i mnożenia elementów przez liczbę
Podstawowe modele probabilistyczne
Wrocław University of Technology Podstawowe modele probabilistyczne Maciej Zięba maciej.zieba@pwr.edu.pl Rozpoznawanie Obrazów, Lato 2018/2019 Pojęcie prawdopodobieństwa Prawdopodobieństwo reprezentuje
Rachunek prawdopodobieństwa Rozdział 5. Rozkłady łączne
Rachunek prawdopodobieństwa Rozdział 5. Rozkłady łączne 5.2. Momenty rozkładów łącznych. Katarzyna Rybarczyk-Krzywdzińska rozkładów wielowymiarowych Przypomnienie Jeśli X jest zmienną losową o rozkładzie
Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)
Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski Klasyfikacja i predykcja. Odkrywaniem reguł klasyfikacji nazywamy proces znajdowania
Jądrowe klasyfikatory liniowe
Jądrowe klasyfikatory liniowe Waldemar Wołyński Wydział Matematyki i Informatyki UAM Poznań Wisła, 9 grudnia 2009 Waldemar Wołyński () Jądrowe klasyfikatory liniowe Wisła, 9 grudnia 2009 1 / 19 Zagadnienie
Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka
Analiza współzależności zjawisk dr Marta Kuc-Czarnecka Wprowadzenie Prawidłowości statystyczne mają swoje przyczyny, w związku z tym dla poznania całokształtu badanego zjawiska potrzebna jest analiza z
Pochodne cząstkowe i ich zastosowanie. Ekstrema lokalne funkcji
Pochodne cząstkowe i ich zastosowanie. Ekstrema lokalne funkcji Adam Kiersztyn Lublin 2014 Adam Kiersztyn () Pochodne cząstkowe i ich zastosowanie. Ekstrema lokalne funkcji maj 2014 1 / 24 Zanim przejdziemy
Metody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Ćwiczenia lista zadań nr 3 Metody estymacji. Estymator największej wiarygodności Zad. 1 Pojawianie się spamu opisane jest zmienną losową y o rozkładzie zero-jedynkowym
Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa
Spis treści Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa Romuald Kotowski Katedra Informatyki Stosowanej PJWSTK 2009 Spis treści Spis treści 1 Wstęp Bardzo często interesujący
Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski
Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Książka jest nowoczesnym podręcznikiem przeznaczonym dla studentów uczelni i wydziałów ekonomicznych. Wykład podzielono na cztery części. W pierwszej
Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31
Statystyka Wykład 8 Magdalena Alama-Bućko 10 kwietnia 2017 Magdalena Alama-Bućko Statystyka 10 kwietnia 2017 1 / 31 Tematyka zajęć: Wprowadzenie do statystyki. Analiza struktury zbiorowości miary położenia
Centralne twierdzenie graniczne
Instytut Sterowania i Systemów Informatycznych Universytet Zielonogórski Wykład 4 Ważne uzupełnienie Dwuwymiarowy rozkład normalny N (µ X, µ Y, σ X, σ Y, ρ): f XY (x, y) = 1 2πσ X σ Y 1 ρ 2 { [ (x ) 1
Metody probabilistyczne
Metody probabilistyczne 13. Elementy statystki matematycznej I Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 17.01.2019 1 / 30 Zagadnienia statystki Przeprowadzamy
Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16
Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego
5. Analiza dyskryminacyjna: FLD, LDA, QDA
Algorytmy rozpoznawania obrazów 5. Analiza dyskryminacyjna: FLD, LDA, QDA dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Liniowe funkcje dyskryminacyjne Liniowe funkcje dyskryminacyjne mają ogólną